查看原文
其他

MEGAHIT:多快好省的宏基因组装工具

宏基因组 宏基因组 2022-03-28

MEGAHIT:通过简洁的de Bruijn图为超大型复杂宏基因组拼接的超快速单节点解决方案

MEGAHIT: an ultra-fast single-node solution for large and complex metagenomics assembly via succinct de Bruijn graph

Bioinformatics, [4.531]

2015-01-20  Article

DOI: https://doi.org/10.1093/bioinformatics/btv033

第一作者:Dinghua Li1,†, Chi-Man Liu2,†, Ruibang Luo2,†

通讯作者:Tak-Wah Lam1,2,*

其它作者:Kunihiko Sadakane3

作者主要单位:

1HKU-BGI生物信息学算法研究实验室和香港大学计算机科学系(HKU-BGI Bioinformatics Algorithms Research Laboratory & Department of Computer Science, University of Hong Kong, Hong Kong)

2L3生物信息学有限公司,香港(L3 Bioinformatics Limited, Hong Kong)

热心肠日报

  1. MEGAHIT是超快的宏基因组序列组装工具,尤其适合组装超大规模数据;

  2. 与SPAdes和IDBA-UD相比,计算时间和内存消耗方面优势巨大;

  3. 在同类软件评估中,MEGAHIT通常有着最少的计算时间和N50,同时也拥有最低的嵌合体比例(错误率);

  4. 软件安装方便,参数简单,可通过调整k-mer范围和步长控制分析质量和计算时间的不同要求;

  5. 尤其在土壤等复杂环境样本组装、大量样本混合组装方面优势明显,成为行业的主流组装软件。

MEGAHIT是超快的宏基因组序列组装工具,截止2019年9月4号引用786(615+171)次。其参与众多软件评测,如《宏基因组仿真数据生成软件:CAMISIM》(https://www.mr-gut.cn/papers/read/1045860958)和高水平新组装方法文章如《Nature子刊:宏基因组二、三代混合组装新软件OPERA-MS》(https://www.mr-gut.cn/papers/read/1088940721)等中,成为宏基因组分析中拼接必用的软件之一。

摘要

简介:MEGAHIT是一个二代测序从头组装工具,用于以时间和成本有效的方式组装大型和复杂的宏基因组数据。它在分别具有和不具有图形处理单元的单个计算节点上完成了44.1和99.6小时的252 Gbps土壤宏基因组数据集的组装。MEGAHIT将数据整体组装在一起,即不需要像分区和规范化那样的预处理。与以前组装土壤数据的方法相比,MEGAHIT产生了三次更大的组装,具有更长的重叠群N50和平均重叠群长度; 此外,55.8%的读数与组装结果可对齐,较之前提高了四倍。

可用性和实施:MEGAHIT的源代码可在https://github.com/voutcn/megahit 上免费获得,并获得GPLv3许可。

联系方式:rb@l3-bioinfo.com或twlam@cs.hku.hk

补充信息:补充数据可在Bioinformatics在线获得。

主要结果

图1. MEGAHIT工作流程

Fig. 1. The workflow of MEGAHIT

表1. MEGAHIT和SPAdes在大肠杆菌数据集上的表现

Table 1. Performance of MEGAHIT and SPAdes on the E.coli dataset

表2. MEGAHIT与Howe et al.和Minia组装结果比较

Table 2. Summary statistics for MEGAHIT, Howe et al. and Minia

超同类软件10倍的计算速度,而且有更完整组装结果,更好的N50和最大片段。

表3. MEGAHIT与Howe et al.和Minia组装结果比对评估完整性

Table 3. Alignment statistics of MEGAHIT, Howe et al. and Minia

4. 结论

MEGAHIT可以在单个服务器上高效组装大型和复杂的宏基因组数据,同时提供更好的完整性和连续性。MEGAHIT提供仅CPU和GPU加速版本。使用GPU,土壤数据集的装配时间从4天缩短到不到2天。

扩展阅读

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存